智能论文笔记

Survey on English Entity Linking on Wikidata

Cedric Möller , Jens Lehmann , Ricardo Usbeck

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-03

Wikidata是一个经常更新，社区驱动和多语言知识图形。因此，Wikidata是实体联系的一个有吸引力的基础，这是最近发表论文的增加显而易见的。该调查侧重于四个主题：（1）存在哪些Wikidata实体链接数据集，它们是多么广泛使用，它们是如何构建的？（2）对实体联系数据集的设计进行Wikidata的特点，如果是的话，怎么样？（3）当前实体链接方法如何利用Wikidata的特定特征？（4）现有实体链接方法未开发哪种Wikidata特征？本次调查显示，当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此，没有提升多语言和时间依赖数据集的可能性，是自然适合维基帽的数据集。此外，我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式，因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性，有时是描述，而是忽略超关系结构等特征。因此，例如，通过包括超关系图嵌入或类型信息，仍有改进的余地。许多方法还包括来自维基百科的信息，这些信息很容易与Wikidata组合并提供有价值的文本信息，Wikidata缺乏。

translated by 谷歌翻译

High-resolution canopy height map in the Landes forest (France) based on GEDI, Sentinel-1, and Sentinel-2 data with a deep learning approach

Martin Schwartz , Philippe Ciais , Catherine Ottlé , Aurelien De Truchis , Cedric Vega , Ibrahim Fayad , Martin Brandt , Rasmus Fensholt , Nicolas Baghdadi , François Morneau

分类：计算机视觉

2022-12-20

In intensively managed forests in Europe, where forests are divided into stands of small size and may show heterogeneity within stands, a high spatial resolution (10 - 20 meters) is arguably needed to capture the differences in canopy height. In this work, we developed a deep learning model based on multi-stream remote sensing measurements to create a high-resolution canopy height map over the "Landes de Gascogne" forest in France, a large maritime pine plantation of 13,000 km$^2$ with flat terrain and intensive management. This area is characterized by even-aged and mono-specific stands, of a typical length of a few hundred meters, harvested every 35 to 50 years. Our deep learning U-Net model uses multi-band images from Sentinel-1 and Sentinel-2 with composite time averages as input to predict tree height derived from GEDI waveforms. The evaluation is performed with external validation data from forest inventory plots and a stereo 3D reconstruction model based on Skysat imagery available at specific locations. We trained seven different U-net models based on a combination of Sentinel-1 and Sentinel-2 bands to evaluate the importance of each instrument in the dominant height retrieval. The model outputs allow us to generate a 10 m resolution canopy height map of the whole "Landes de Gascogne" forest area for 2020 with a mean absolute error of 2.02 m on the Test dataset. The best predictions were obtained using all available satellite layers from Sentinel-1 and Sentinel-2 but using only one satellite source also provided good predictions. For all validation datasets in coniferous forests, our model showed better metrics than previous canopy height models available in the same region.

translated by 谷歌翻译

Predicting Properties of Quantum Systems with Conditional Generative Models

Haoxiang Wang , Maurice Weber , Josh Izaac , Cedric Yen-Yu Lin

分类：机器学习

2022-11-30

Machine learning has emerged recently as a powerful tool for predicting properties of quantum many-body systems. For many ground states of gapped Hamiltonians, generative models can learn from measurements of a single quantum state to reconstruct the state accurately enough to predict local observables. Alternatively, kernel methods can predict local observables by learning from measurements on different but related states. In this work, we combine the benefits of both approaches and propose the use of conditional generative models to simultaneously represent a family of states, by learning shared structures of different quantum states from measurements. The trained model allows us to predict arbitrary local properties of ground states, even for states not present in the training data, and without necessitating further training for new observables. We numerically validate our approach (with simulations of up to 45 qubits) for two quantum many-body problems, 2D random Heisenberg models and Rydberg atom systems.

translated by 谷歌翻译

Relaxed Attention for Transformer Models

Timo Lohrenz , Björn Möller , Zhengyang Li , Tim Fingscheidt

分类：机器学习 | 自然语言处理

2022-09-20

基于全注意力的变压器体系结构的强大建模能力通常会导致过度拟合，并且 - 对于自然语言处理任务，导致自动回归变压器解码器中隐式学习的内部语言模型，使外部语言模型的集成变得复杂。在本文中，我们探索了放松的注意力，对注意力的重量进行了简单易于实现的平滑平滑，从编码器。其次，我们表明它自然支持外部语言模型的整合，因为它通过放松解码器中的交叉注意来抑制隐式学习的内部语言模型。我们证明了在几项任务中放松注意力的好处，并与最近的基准方法相结合，并明显改善。具体而言，我们超过了最大的最大公共唇部阅读LRS3基准的26.90％单词错误率的先前最新性能，单词错误率为26.31％，并且我们达到了最佳表现的BLEU分数37.67在IWSLT14（de $ \ rightarrow $ en）的机器翻译任务没有外部语言模型，几乎没有其他模型参数。代码和模型将公开可用。

translated by 谷歌翻译

WiForceSticker: Batteryless, Thin Sticker-like Flexible Force Sensor

Agrim Gupta , Daegue Park , Shayaun Bashar , Cedric Girerd , Tania Morimoto , Dinesh Bharadia

分类：机器人

2022-09-19

彼此接触的任何两个物体都会仅仅是由于重力或机械接触而引起的力，例如机器人手臂抓住一个物体，甚至是我们膝关节处的两个骨头之间的接触。自然测量和监视这些接触力的能力允许从仓库管理（基于重量检测错误包装）到机器人技术（使机器人臂的抓地力与人类皮肤一样敏感）和医疗保健（膝关节植入物）的大量应用。设计一个无处不在的力传感器是充满挑战的，该传感器可自然地用于所有这些应用。首先，传感器应足够小，以适合狭窄的空间。接下来，我们不想铺设笨重的电缆来读取传感器的力值。最后，我们需要进行无电池设计以满足体内应用程序。我们开发了WiforCesticker，这是一种无线，无电池，类似贴纸的力传感器，可以在任何表面上都可以无处不在，例如所有仓库包装，机器人手臂和膝关节。 WiforCesticker首先设计一个$ 4 $ 〜mm〜 $ \ $ \ times $〜$〜$ 2 $ 〜mm〜 $ \ $ \ times $〜$〜$〜$ 0.4 $〜毫米电容传感器设计，配备了$ 10 $〜$〜$〜$〜$〜$〜$〜$ 〜mm〜mm 〜mm 〜mm 〜mm在灵活的PCB基材上设计。其次，它引入了一种新的机制，可以通过将传感器与COTS RFID系统插入传感器，从而无线读取器无线读取器可以通过无线读取器读取力信息。该传感器可以在多个测试环境中检测到$ 0 $ -6 $ 〜n的力量，感应精度为$ <0.5 $ 〜n，并在传感器上使用超过10,000美元的$ 10,000 $变化的力级按下。我们还通过设计传感器展示了两个应用程序案例研究，称量仓库包和骨接头施加的传感力。

translated by 谷歌翻译

Private Synthetic Data for Multitask Learning and Marginal Queries

Giuseppe Vietri , Cedric Archambeau , Sergul Aydore , William Brown , Michael Kearns , Aaron Roth , Ankit Siva , Shuai Tang , Zhiwei Steven Wu

分类：机器学习

2022-09-15

我们提供了一种差异化私有算法，用于同时生成多个任务的合成数据：边际查询和多任务机器学习（ML）。我们算法中的一个关键创新是能够直接处理数值特征的能力，与许多相关的先验方法相反，这些方法需要首先通过{binning策略}将数值特征转换为{高基数}分类特征。为了提高准确性，需要较高的分子粒度，但这会对可伸缩性产生负面影响。消除对套在一起的需求使我们能够产生合成数据，以保留大量统计查询，例如数值特征的边际和条件线性阈值查询。保留后者意味着在特定半空间上方的每个类标记的点的比例在实际数据和合成数据中都大致相同。这是在多任务设置中训练线性分类器所需的属性。我们的算法还使我们能够为混合边缘查询提供高质量的合成数据，这些数据结合了分类和数值特征。我们的方法始终比最佳可比技术快2-5倍，并在边缘查询和混合型数据集的线性预测任务方面提供了显着的准确性改进。

translated by 谷歌翻译

TSInterpret: A unified framework for time series interpretability

Jacqueline Höllig , Cedric Kulbach , Steffen Thoma

分类：机器学习

2022-08-10

随着深度学习算法在时间序列分类中的应用越来越多，尤其是在高风化场景中，解释这些算法的相关性成为关键。尽管时间序列的可解释性研究已经增长，但从业者的可访问性仍然是一个障碍。没有统一的API或框架，使用的可解释性方法及其可视化的使用方式多样。为了缩小这一差距，我们介绍了TSInterpret易于扩展的开源Python库，用于解释将现有解释方法结合到一个统一框架中的时间序列分类器的预测。库功能（i）最先进的可解释性算法，（ii）公开了统一的API，使用户能够始终如一地使用解释，并为每种说明提供合适的可视化。

translated by 谷歌翻译

Three-Dimensional Coherent Diffractive Imaging of Isolated Faceted Nanostructures

Alessandro Colombo , Simon Dold , Patrice Kolb , Nils Bernhardt , Patrick Behrens , Jonathan Correa , Stefan Düsterer , Benjamin Erk , Linos Hecht , Andrea Heilrath

分类：神经与进化计算

2022-08-08

可以使用X射线自由电子激光器的强脉冲和短脉冲直接通过单次相干衍射成像直接观察到自由飞行中孤立的纳米样品的结构和动力学。广角散射图像甚至编码样品的三维形态信息，但是该信息的检索仍然是一个挑战。到目前为止，只有通过与高度约束模型拟合，需要对单镜头实现有效的三维形态重建，这需要有关可能的几何形状的先验知识。在这里，我们提出了一种更通用的成像方法。依赖于允许凸多面体描述的任何样品形态的模型，我们从单个银纳米颗粒中重建广角衍射模式。除了具有高对称性的已知结构动机外，我们还检索了以前无法访问的不完美形状和聚集物。我们的结果为单个纳米颗粒的真实3D结构确定以及最终的超快纳米级动力学的3D电影开辟了新的途径。

translated by 谷歌翻译

Cross-lingual Approaches for the Detection of Adverse Drug Reactions in German from a Patient's Perspective

Lisa Raithel , Philippe Thomas , Roland Roller , Oliver Sapina , Sebastian Möller , Pierre Zweigenbaum

分类：自然语言处理 | 机器学习

2022-08-03

在这项工作中，我们介绍了患者生成的含量中第一个用于德国不良药物反应（ADR）检测的语料库。该数据包括来自德国患者论坛的4,169个二进制注释的文档，用户谈论健康问题并从医生那里获得建议。正如该领域的社交媒体数据中常见的那样，语料库的类标签非常不平衡。这一主题不平衡使其成为一个非常具有挑战性的数据集，因为通常相同的症状可能会有几种原因，并且并不总是与药物摄入有关。我们旨在鼓励在ADR检测领域进行进一步的多语性努力，并使用基于多语言模型的零和少数学习方法为二进制分类提供初步实验。当对XLM-Roberta进行微调首先在英语患者论坛数据上，然后在新的德国数据上进行微调时，我们的正面级别的F1得分为37.52。我们使数据集和模型公开可供社区使用。

translated by 谷歌翻译

Understanding the Relation of User and News Representations in Content-Based Neural News Recommendation

Lucas Möller , Sebastian Padó

分类：自然语言处理

2022-07-29

已经提出了许多基于神经内容的新闻建议的模型。但是，对此类系统的三个主要组成部分（新闻编码器，用户编码和评分功能）和所涉及的权衡的相对重要性的了解有限。在本文中，我们评估了以下假设：匹配用户和候选新闻表示的最广泛使用的方法不够表达。我们允许我们的系统通过评估更具表现力的评分功能来建模两者之间的更复杂的关系。在广泛的基线和建立的系统中，这会导致AUC中约6分的一致改进。我们的结果还表明，新闻编码器的复杂性与评分功能之间的权衡：一个相当简单的基线模型在思维数据集中得分远高于68％的AUC，并且在已发布的最新艺术品的2点范围内，而同时也是如此。需要一小部分计算成本。

translated by 谷歌翻译